home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9610 / 000098_owner-urn-ietf _Thu Oct 24 15:15:51 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  8KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id PAA17697 for urn-ietf-out; Thu, 24 Oct 1996 15:15:51 -0400
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id PAA17691 for <urn-ietf@services.bunyip.com>; Thu, 24 Oct 1996 15:15:47 -0400
  3. Received: from josef.ifi.unizh.ch by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA28846  (mail destined for urn-ietf@services.bunyip.com); Thu, 24 Oct 96 15:15:44 -0400
  5. Received: from ifi.unizh.ch by josef.ifi.unizh.ch 
  6.           id <01391-0@josef.ifi.unizh.ch>; Thu, 24 Oct 1996 21:15:31 +0100
  7. Subject: Re: [URN] Unicode for NSS query
  8. To: tallen@fsc.fujitsu.com
  9. Date: Thu, 24 Oct 1996 21:15:30 +0100 (MET)
  10. Cc: rdaniel@acl.lanl.gov, urn-ietf@bunyip.com
  11. In-Reply-To: <199610241725.KAA04756@ishtar.fsc.fujitsu.com> from "Terry Allen" at Oct 24, 96 10:25:11 am
  12. Mime-Version: 1.0
  13. Content-Type: text/plain; charset=US-ASCII
  14. Content-Transfer-Encoding: 7bit
  15. Content-Length: 6937
  16. From: Martin J Duerst <mduerst@ifi.unizh.ch>
  17. Message-Id: <"josef.ifi..192:24.09.96.20.15.32"@ifi.unizh.ch>
  18. Sender: owner-urn-ietf@services.bunyip.com
  19. Precedence: bulk
  20. Reply-To: Martin J Duerst <mduerst@ifi.unizh.ch>
  21. Errors-To: owner-urn-ietf@bunyip.com
  22.  
  23. Terry Allen wrote:
  24.  
  25. >Thanks to Patrik and Ron.  I think I need to go out and buy
  26. >those Unicode books today.  Some clarifications:
  27.  
  28. Version 2.0 is out now, and it's only one book.
  29. Addison-Wesley, urn:isbn:0-201-48345-9 :-).
  30.  
  31. >| > - why care?  the NSS is supposed to be opaque
  32. >| Which means? I think it means we can't go around inferring
  33. >| structure in arbitrary namespaces. Opaque does not mean
  34. >| that we have to take whatever comes. There can be particular
  35. >| requirements on the characters allowed.
  36. >| I think this WG should make
  37. >| an explicit decision on trying to go to UNICODE rather than
  38. >| just defaulting to ASCII. The reasons for doing so:
  39. >|   1) The IAB workshop tells us to try to do so.
  40. >|   2) Not all the namespaces in the world use the Latin alphabet
  41. >|      without accents.
  42. >|   3) Isn't it time we start getting away from the US-ASCII assumption?
  43. >
  44. >I don't want to assume ASCII, but I was wondering, why think in terms 
  45. >of characters and not octets?
  46.  
  47. I have suggested that we might be required to thing in terms of
  48. both characters and octets. For some things, similar to a data:
  49. URL, thinking in characters might be artificial. For some
  50. other things, such as URLs, thinking in octets may to some
  51. extent be necessary because of backwards compatibility issues
  52. (assume an URL scheme is extended and decides to use some
  53. weird RFC 1522-like method for encoding characters, and this
  54. would have to be grandfathered).
  55.  
  56. >If the NSS is thought of as a series 
  57. >of octets, and the meaning of those octets is defined by the scheme, 
  58. >the resolver should have no problem.  You give one reason below
  59. >(getting to the resolver).  What else am I missing?  (transcribability?)
  60.  
  61. Transcribability is definitely an issue. Assume there is some very
  62. well established tradition
  63.  
  64. >| > - does this imply that a) NSSs should be formed originally
  65. >| >   in Unicode, or that b) NSSs in other coded character sets
  66. >| >   must be translated/transliterated into Unicode in forming
  67. >| >   URNs, or c) something else?
  68. >| 
  69. >| What I assume happens is that namespaces are defined in terms of
  70. >| glyphs, not coded character sets.
  71.  
  72. Terry here and below makes many comments about what we want
  73. to encode not being glyphs but characters. I agree. I think
  74. Ron Daniel used the term glyph with the meaning "character
  75. without assigned encoding". To clear up terminology, a
  76. character by itself does not enclude a code. It is 
  77. something like a small logical text component. A glyph
  78. (in standard terminology) is the appearance of a
  79. character. With Latin letters, this distinction only
  80. turns up with e.g. "a" or "g", where the "g" can be
  81. closed at the bottom or not, and these would be two
  82. glyphs for the same character.
  83.  
  84. So replacing all the occurrences of "glyph" in Ron's comment
  85. by "character", things become much more clear. It's then
  86. basically a discussion of whether:
  87.  
  88. - Namespaces appear as characters, without specific encoding, or
  89. - Namespaces appear as characters with their encoding already defined
  90.  
  91. and, for the later, whether:
  92.  
  93. - They would have to be reencoded to Unicode
  94. - They should be left as is
  95.  
  96. My personal oppinion is that namespaces will appear in both variants,
  97. both already encoded and not yet encoded, and also as encoded entities
  98. without any relation to characters.
  99.  
  100. As for reencoding, I would propose to suggest in the document that
  101. NSS define a reencoding if possible and appropriate, and do
  102. so if possible by referring to existing documents (Unicode
  103. has mapping tables between e.g. ISO 8859-6 (Latin/Arabic)
  104. and Unicode).
  105.  
  106. I would also suggest that the document propose that NSS
  107. or URL schemes that have not yet defined character semantics
  108. beyond ASCII, but that would like to do so, strongly consider
  109. to do so in accordance with URN name syntax (i.e. using UTF-8).
  110.  
  111. >| >As an example, suppose that I have an existing name space,
  112. >| >well ordered in every respect, in ISO 8859-6 (Latin/Arabic).
  113.  
  114. >| >I want this name space to be used for URNs, and (supposing
  115. >| >that the coded character set is not an obstacle at this 
  116. >| >point) get it registered.  As the upper half of 8859-6 is
  117. >| >not a subset of Unicode, per the present syntax draft,
  118.  
  119. >All the *characters* of the upper half of 8859-6 can be represented
  120. >by various combinations of Unicode glyphs, as I understand matters.
  121.  
  122. Yes. But all the ligatures and contextual forms are in the compatibility
  123. section. The mapping is really straightforward and well-defined.
  124.  
  125. >| Right. We have been assuming that the user enters a URN into
  126. >| a browser using their local language/script/... and the browser
  127. >| has the job of making it into UNICODE/UTF-8/%encoded.
  128. >
  129. >Terminological question:  is the URN as entered a URN?  or does
  130. >it become a URN only when translated?
  131.  
  132. Interesting question. But really only terminology. I don't
  133. assume anybody will publish an URN with %HH notation in e.g.
  134. a Japanese newspaper. So even if we terminologically specify
  135. that only the entered and translated URN is an URN, users
  136. will thing differently.
  137.  
  138.  
  139. >| Are there guidelines already in place on how, when a user wants
  140. >| an "A" plus "grave" (or whatever), that is to be encoded? Is it
  141. >| reasonable for us to cite such guidelines as the way namespaces
  142. >| should be encoded? (Also, is it SHOULD be encoded or MUST be
  143. >| encoded).
  144. >
  145. >That I can't answer (yet).
  146.  
  147. I have posted a question to this respect to the unicore (unicode
  148. specialists) list. The answer is that:
  149.  
  150. - Unicode defines that A-Grave and A followed by combining Grave
  151.     are equivalent.
  152. - Unicode does not give any preference to any one of these forms.
  153.  
  154. I see the main reason for this state in the fact that up to now,
  155. Unicode was mainly designed with text editing in mind, and it was
  156. assumed that each text editor could convert incomming stuff to
  157. whatever it preferred.
  158.  
  159. For things such as URNs, it would definitely be nice to have a set
  160. of clear preferences. SHOULD be encoded would not help much,
  161. because it would not take any burden from servers/resolvers
  162. (unless we want to put the burden on the user, which in the
  163. case of A-grave would be a really bad idea).
  164.  
  165.  
  166. >| >  Say
  167. >| >I can have outcomes A, B, and C, all of them legitimate
  168. >| >representations of my 8859-6 name in Unicode.  Are 
  169. >| >urn:mynamespace:A, urn:mynamespace:B, and urn:mynamespace:C
  170. >| >equivalent?
  171. >| 
  172. >| I think that we can't mandate that they be lexically equivalent.
  173. >| That requires FAR too much knowledge on the part of all URN software.
  174. >| It may be that a resolver can be made smart enough that, when
  175. >| dealing with a particular language and alphabet, it can recognize
  176. >| "A with grave" as equivalent to "A" and "grave". I think that is outside
  177. >| the bounds of what we standardize.
  178. >
  179. >Fine by me.
  180.  
  181. I think that for Arabic and similar cases, with lots of compatibility
  182. codes, it would be nice to say that compatibility codes SHOULD not
  183. be used in URNs. This is not a problem of 8859-6 -> Unicode conversion,
  184. but just of Arabic in general.
  185.  
  186.  
  187. Regards,    Martin.